| ● Pipeline 利用]指宅間的平行度,t兽加了throughput                                                                                                   |                                               |                                       |
|----------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------------------|---------------------------------------|
| 指定層級的平行度##作 ILP (Instruction-Level Parallelism)                                                                                        |                                               |                                       |
| 更高階的有· Program - level parallelism = 05治面C process 经不利的                                                                                | ) CPV core                                    |                                       |
| Thread - lovel parallelism = 05治面2 thread 经不同日                                                                                         |                                               |                                       |
| t曾加 ILP的方法有二,                                                                                                                          |                                               |                                       |
| O. Increase pipeline depth (superpipeline) (Stage 數基多)                                                                                 | 圖 〒:                                          |                                       |
| Speedup $\pm \text{th} \left( :: \text{Speedup} = \frac{N \times S \times T}{[[s-1]+N] \times T} = S \left( :: N >> S \right) \right)$ | 0.                                            | T                                     |
| Jeed up I II C. Speed up - [(s-1)+N] x                                                                                                 | <u> </u>                                      | : Super pipeline                      |
| 3. Difficulty to balance stages 上州 3. Hazard penalty 上州,Hazard 介數也養多                                                                   |                                               | 101                                   |
| Tazard penalty 上世 Hazard 「数 C 文タ                                                                                                       | .Δ                                            | multiple issue pipeline               |
| Multiple issue: 每个Stage 可執行多个指令 <u></u>                                                                                                |                                               | •                                     |
| * HINCK   1945                                                                                                                         | 置會有 data memory 的                             |                                       |
| く"包装指令到 issue slot 中                                                                                                                   | eg sw \$t0, 41\$53)                           | 女。果 16+\$5) = 64+\$55                 |
| 《 度理 dota hazard & control hazard                                                                                                      | lw \$t1, 16(\$55)                             |                                       |
| 而 Multiple issue precessor 有 2.44 implementation 方 3.花:                                                                                |                                               | 南有 hazard                             |
| D. Static multiple issue = 利用Compher,在Compile time 时就完成 pack in                                                                        | str. & handle hazzand                         | 1: MIPS pipeline + 17 -               |
| Dynamic multiple issue → 可以在run-time 時才處理,但需利用硬件,                                                                                      | precessor \$ 11% pack instr. & handle hazzond | Stage 只有 MEM stage                    |
| (Superscalar)                                                                                                                          |                                               | 在做讀或寫                                 |
| Speculation (駅、硬管す)                                                                                                                    |                                               | 二下常有 et hozard)                       |
| 找到指電間潜在的ILP file 就是利用 Complier or Processor 來指指電                                                                                       | 614 智 士能更佳+414以更右初以66年 式(                     | · · · · · · · · · · · · · · · · · · · |
|                                                                                                                                        | 改善指令为派率                                       | 11 - X 10 E 14 sependency             |
| 与 beg 指笔可指 taken or not taken to同前面的 branch delay                                                                                      | LA 6/82/MCT                                   |                                       |
| SW-lw 指氧可指不存在data hasard,可将lw 特别到su前                                                                                                   |                                               |                                       |
| Speculation 机制中需要: 在認指測是否正確                                                                                                            |                                               |                                       |
| a. 修複猜錯進成影响                                                                                                                            |                                               |                                       |
| Speculation 的實現了以分為 — Complier (static)                                                                                                |                                               |                                       |
| Precossor (dynamic)                                                                                                                    |                                               |                                       |
| I. Complier 李t枚 Speculation                                                                                                            | II. Processor \$ 1th Speculation              |                                       |
| step. °. 使用猜测重排指交顺序 (有可能精笔)                                                                                                            | · 猜测 重排指领原                                    |                                       |
| o.  Invert check code to check the correctness of speculation                                                                          | ® 將才青測 结果有到一个 buffer 中                        |                                       |
| D. 才是使修補程式                                                                                                                             | D. 岩正體: 特 luffer 内容客到 Reg. MEM                |                                       |
| , , , , , , , , , , , , , , , , , , ,                                                                                                  | 岩飞,flush duffer,重野執行正確。                       | 项序                                    |



## I. MIPS-64

ISA同前面学的MIPS-32,差别在可一个stuge可執行2个指令(two-issue)

但有限制此指意包為:一个要是 R-type 或 branch 指套,一个要是 lw or sw 指定,若找不到不具 dopendency 的指定,则用 nop +冠入指定包

- f Cycle 分發 2个指令需要fetch 64 位元的 instruction (2个32 bit 指令)

各指定間也存在forwarding path, \$\forall w 指定可以forward 寫入暫存器内容给尽-type指定

可用作解決部份 data hazard FX hazard MEM hazar IF ID EX MEM WB MEM hazard lw-sw rt hazard branch 造成 hazard (在EX stoye 時報流達 token , not taken ) ID EX MEM NB

要實現 two-issue 的話, 主要功能示件的 port 需更改, datapath 40下:



memory, two more read ports and one more write port on the register file, and another ALU. Assume the bottom ALU handles address calculations for data transfers and the top ALU handles everything else.

Static two-issue pipeline code scheduling to it 

設要以MIPS-64重排指金,並避免 pipeline stall 而 Control hazard 由 HW解决的話

· (1.2)有 load - use 需隔-1 clock cycle 12.3) 有 data hazard 不能在同一指定包

14.51 \$ data hozard

上面做 R-type. 下面做 lu. sw

指多行為。

注意· Register file 的 寫 port 記意 出port to bo 另外. · EX stage 中 ALU 愛用作 R-type & In. sw

指令使用

· 共有及个ALI)

PC改成 PC+P. - 次建化2个指定

| 2                                                                                | addi 951, \$51, 4                                                                | nop                              | · sw 指含中                                 | 的 Aret 雷更改為                                      | 4          |                                             |               |  |
|----------------------------------------------------------------------------------|----------------------------------------------------------------------------------|----------------------------------|------------------------------------------|--------------------------------------------------|------------|---------------------------------------------|---------------|--|
| 3                                                                                | addu \$t0, \$t0, \$s2                                                            | nop                              |                                          | 中介指笔包下,有3个                                       |            | ITI P T 42 )                                |               |  |
| 4                                                                                | 1. scl « A l                                                                     | nop<br>nop<br>sw \$t0, 4(\$s))   |                                          |                                                  | T B my un. | (11( 707 )                                  |               |  |
|                                                                                  | Bhe Tol, PU, loop                                                                | on 1007 (1917)                   | Jē & ₺/੨ · ८                             | 1.指電數目太少                                         | 11- 1      | 1 10 14 26 1                                |               |  |
| a. 太多的 data hazard (True hazard 每社改)                                             |                                                                                  |                                  |                                          |                                                  |            |                                             |               |  |
| 利用for loop 的 loop unrolling 将指令数上升,使指令可排為更有效率的指令与                                |                                                                                  |                                  |                                          |                                                  |            |                                             |               |  |
| り loop body 展「                                                                   | 開 好 后,                                                                           | i=1 to 20 mm                     | S= 5+1<br>  S= 5+2                       | } \$\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\         | 时,每1000    | control instruction                         |               |  |
| # loop body 展開 , s=1 to d0 unrolling s=s+1 s=s+2<br>s+= i s=s+20 : 執行時間更好,但空間上較差 |                                                                                  |                                  |                                          |                                                  |            |                                             |               |  |
| 要储更多的 parker.                                                                    |                                                                                  |                                  |                                          |                                                  |            |                                             |               |  |
| 69                                                                               | o:  w \$t0,01\$                                                                  | sl) lw                           | \$t0, 0(\$s1)                            | MEM                                              |            | 但 這裡発現的有指定都用到了\$to 暫有器                      |               |  |
| loop }                                                                           | addu \$10, \$10                                                                  | l, \$52 sw                       | \$to , \$to , \$52<br>\$to , O(\$51)     |                                                  | \$\$\$     | 然而,不同 loop body 間的暫存器內容應不                   |               |  |
| Dody                                                                             | sw \$t0, 01\$                                                                    | is)) $\Rightarrow \frac{1}{ w }$ | \$t0,-9(\$51)                            | =                                                | \~\        | 才对,但:重複的科·使用,鲁连成 C。,                        |               |  |
| loop control                                                                     | p:  w \$t0,0 \$s  addu \$t0,\$t0  sw \$t0,0 \$    addi \$51,\$s1,  bne \$51,\$0, | , -4 Nang                        | \$t0.\$t0, \$52<br>\$t0,4(\$51)          | \$51 → MM                                        | \$52       |                                             | uplier = Ln   |  |
|                                                                                  |                                                                                  | O.d.d.                           | \$t0,-P(\$s1)<br>\$t0.\$t0, \$s2         |                                                  |            | 3單性 1政 Code Scheduling                      |               |  |
| 1 for loop 145                                                                   | index為4的信數                                                                       | ž sw                             | 9to,-1(\$51)                             | - \$51 → <b>     </b>                            | y          | 這种情形箱作·antidependence l nam                 | ne dependence |  |
| 則可將しのよ                                                                           | h.J. 展開3次                                                                        |                                  | \$t0 , 12( \$5   )<br>\$t0 . \$t0 , \$52 | ***************************************          |            | 厚回来自Rey Name 重複使用                           |               |  |
| 1                                                                                |                                                                                  |                                  | 9to,-12(\$51)                            |                                                  |            | J                                           |               |  |
|                                                                                  |                                                                                  | add;                             | \$s1, \$s1, -16                          |                                                  | -          |                                             |               |  |
|                                                                                  |                                                                                  | bne                              | \$51, \$50, loop                         |                                                  |            |                                             |               |  |
| 解决 Antidepende                                                                   | 解决 Antickpendence 方は為·展開時重對命名暫存器 [Register Renaming]                             |                                  |                                          |                                                  |            |                                             |               |  |
| =)  w \$t0                                                                       | 0,0(\$51)                                                                        | clock cycle                      | R-type or beg                            | IW & SW                                          | it: a      | dd; \$1,\$51,-16 放在第一行 1會是最佳 care           |               |  |
| addu \$t0                                                                        | 0 , \$t0, \$52                                                                   |                                  | add: \$51. \$5116                        | Iw & sw<br> w \$t0, 0(\$s1)<br> w \$t1, 12(\$s1) |            | B 後面用到 \$51 的雾湖 回 16                        |               |  |
|                                                                                  | o <u>, 0(\$51)</u><br>:1,-4(\$51)                                                | <b>ર</b>                         |                                          | lw \$t1, 121\$511                                | 1-         | こ   Man |               |  |
|                                                                                  | 1, \$41, \$52                                                                    | 3                                |                                          | lw sta. 8 (\$511                                 |            |                                             |               |  |
|                                                                                  | 1,.4(\$51)                                                                       | 4                                |                                          | IW \$13, 4 (\$51)                                |            |                                             |               |  |
|                                                                                  | a,-P(\$51)<br>a, \$ta, \$52                                                      | 5                                |                                          | SW \$f0. 161 \$51)                               |            |                                             |               |  |
|                                                                                  | 2,-1(\$51)                                                                       | 6                                |                                          | SW \$11, 12(\$51)                                |            |                                             |               |  |
| lw \$t3                                                                          | 3,-12(\$51)                                                                      | 7                                |                                          |                                                  |            |                                             |               |  |
|                                                                                  | 3, \$13, \$52                                                                    | 8                                | beg \$51. \$0, 100p                      | sw \$tR, 6 (451)<br>sw \$t3, 4 (\$51)            |            |                                             |               |  |
|                                                                                  | 3,-12(\$5 )<br>1, \$5 , -16                                                      |                                  | V-1                                      |                                                  |            |                                             |               |  |
|                                                                                  | 1, \$50 , loop                                                                   |                                  |                                          |                                                  |            |                                             |               |  |
| 若 index 为 3 的倍数,即 loop body 展開 2-2                                               |                                                                                  |                                  |                                          |                                                  |            |                                             |               |  |
|                                                                                  | to, 0(\$s1)                                                                      | ' /                              | R-type or beg                            | IW & SW                                          |            |                                             |               |  |
|                                                                                  | to . \$to, \$52                                                                  | <u> </u>                         | add: \$51. \$5112                        | /w \$t0, 0(\$5))                                 |            |                                             |               |  |
|                                                                                  | to, O(\$51)<br>t1,-4(\$51)                                                       |                                  | Oluge Tell (                             |                                                  | -          |                                             |               |  |
|                                                                                  | £1,\$£1,\$52                                                                     | <u>a</u>                         |                                          | N \$to, 8   \$s1/                                | -          |                                             |               |  |
| SW \$6                                                                           | (1,-4(\$51)                                                                      | 3                                | addu \$t0,\$t0.\$52                      | lw \$to. 4 (\$511                                | _          |                                             |               |  |
|                                                                                  | ta,-P(\$51)                                                                      | 4                                | addu \$11. \$11. \$52                    |                                                  |            |                                             |               |  |
|                                                                                  | ta, \$12, \$52                                                                   |                                  | addu \$td.\$td.\$sa                      |                                                  | -          |                                             |               |  |
|                                                                                  | tz,-1(\$5 )<br>\$5 , \$5 , - 2                                                   | 6,                               | beg \$51,\$0, loop                       | SW \$12.4(\$51)                                  |            |                                             |               |  |
|                                                                                  | er and I                                                                         |                                  | ' '                                      |                                                  |            |                                             |               |  |

clock Cycle R-type or line lw or sw 要注意的是,:特 add:重排至含使到 \$51的 Sw 2前 1 nop lw \$10, 0[\$5]) 差干 sw 使用 \$51 内容 時,已经 诚退 4了

bne \$51, \$50, loop

若 index 为2的倍数,即100p body 展開12欠 Iw \$t0. 0(\$51) clock cycle R-type or beg IN & SW addu \$t0, \$t0, \$52 VLIW: add \$51. \$51. -16 |w \$t0, 0(\$51) SW \$to, 0(\$51) lw \$t1,-9(\$51) IN \$to, 4 (\$51) addu \$11, \$11, \$52 3 addu \$t0.\$t0.\$52 SW \$61,.4(\$51) addu \$11. \$11. \$52 SW \$10, P(\$51) add; \$51, \$51, - 8 SW \$11.41 \$51) bne \$51, \$50, loop beg \$51, \$0, loop MEM Very Long Instruction Word (VILW) - 末系 手川用 Complier 李化 packing instruction , hazzards handling Packing Instruction 方达為:把一群指令分發到 issue packet (很是,執行很多动作指令) 可將 issue packet 视為一个單獨指令 VILW的優缺黑: 優: <sup>©</sup> 硬体較簡單,接欠性更好(要增加 issue 個數只需加功能單元即可) 生夫: Omplier 複雜度上升, Campile time 增长 [ : 罗5杆 data stream , 找到没有 dependency 的指气作9 才能放射 issue packet ) The Itanium approach turned out Hazard 只能用Stall 解注(这有forwarding path) Object Code 不相容 to that the wished-for compliers O. · VLIM的基本部行單位很大,需要很高的bandwidth were basically impossible to write" - Donald Knuth Code bloat (實恤 loop unrolling, program 19需空間重大) Lode size explosion Intel IA-64 架構 (軟硬智有) IA-69 為 - Reg-to-Reg by RISC ISA, 但支援利用 Complier 開發的平行度,又稱作 Explicitly Parallel Instr. Computer [EPIC] IA-64 可用 Software-based & Hardware-based 两种方式來 Packing Instr. O. Instruction group: Complier 14 沒有data dependency 指含 製作- 起成為 Instrugroup Bundle: 每个bundle有3个指令,是度為41 bit,又有5个位元的 template field, bundle 寬度共laf bits Template field 魯博用到明个功能單元 另外, IA-64 提供 Predication 本做 特則. 消 Pf branch, L成少Control Hazard Predication 可消除 if than-else statement ,但些这處理 for loop, while loop = 可用四層展開 MIPS bne (P), Else IA-69 eg if (P) S, else Sa = IPI S. Sı j Exit 1~P) Sa Else: Sa

Dynamic Multiple Issue Processor: (Superscalar) 一樣 需先利用 Complier 1枚 指仓排程 . 來消除 dependency , 增加指令分派率 再由Hordware 確認執行有無錯誤 課本只提到 dynamic pipoline scheduling 這一技術,用作找到指令在同一个clock中執行,且避免hazard fo stall 的發生 Dynamic Pipeline Scheduling Pipeline 會被分作三个主要單元: Instruction fetch & issue, multiple functional unit, commit unit 大o 下層: Instruction fetch and decode unit In-order issue:照指含质序去羰取指含,解否,作器指含图的dependency Reservation Station: 每个functional unit 会有对应的Juffer,用作储存運算不是算了 和演算结果 Commit Unit: 将建算结果暂存, 當安全時, 才寫回 Register file 或 MEM 裡面的 lafter 稱作 Reorder buffer out-of order issue

可视 dynamic pipeline scheduling 考分析-个轻式的 资料l原结構,Processor 會以不改变资料l底前提下,以某种顺序執行指令 透 迅 讓指兌額取 L 解码 40 将结果宫回 Reg file 时採 in-order issue 方式,但 勃行时採 out-of-order 的方式 來實現 committed: when an instruction is quaranteed to complete.

a. Antidependency = WAR

add \$1, \$2,\$3

I. Read after write:

Dut-of-order execution 需解决之data hazard

·· 指食現在不思順序執行, 會有下面 3 种 data hazard 出現

II. Write ofter read

In-order 1354e

True data dependency = RAW 3. Output dependency > WAW

> add \$1, \$2. \$3 sub \$2, \$5. \$4

設 add 的宫人登生在 sub 的宫入後 設 pipeline 設計成前面指令的暫有器讀取 魯出錯 可能 發生在 後面指令的暫存器寫入後

Commit Unit 同樣得照指多順序將結果寫回Register file或MEM

II. Write after write

add \$1. \$2. \$3

sub \$4. \$1, \$1 sub \$1, \$2, \$3 設 pipeline 設計成前面指令的暫存器寫》 可能 發生在 後面指令的暫存器 讀取後 软魚出錯 软鲁出错

然而 antidopendency fo output dependency 只是因為 Programmer 重複 使用 Reg 造成的 Storage Conflict 可利用 Reg renoming 來消除.用free register 替换牛解决 

R7 = R5 + 1

● 各个技術或式件來提升ILP為 software or hardware based? S·戴 H:硬,B:皆为 1. Branch Prediction: B , to dolayed branch 是利用Complier在做,而HW #了利用 BHT, BTB 來達成

6. Out-of-order execution: H, 用大量功能單元來實改

8. EPIC : B, Ainstruction group & burdle

3. VLIW: S 4. Superscalar : H 5. Dynamic - scheduling : H

7. Speculation : B

9. Reorder butter : H 10. Reg renaming: B 11. Redication: 5

2. Multiple issue, B, 有Static Fo Dynamic